2017年大数据热点总结与发展趋势预测
2017年可以从多方面感受到“大数据”从炒作的概念转变为越发真实的实体,不论是从新闻的曝光度还是国家战略,都预示它已驶入快车道,迎来发展波峰。随着互联网的发展,共享经济盛行,各行业数据激增,大数据被投入更多领域的建设例如金融科技、物联网、移动互联网等,与构成三角关系的云计算、人工智能共同促进产品创新。在市场的驱动下,Google、Amazon、阿里等IT巨头们纷纷加入大数据之战,努力在大数据产品竞争中争夺红利。
星环将通过本文分析并总结2017年的大数据热点,并以我们在各行业的实际经验对大数据的未来发展方向以及今后创新点给出预测。
自2003年Google发表大规模文件系统Google File System起,大数据技术每年都创造亮眼的成就。从MapReduce的诞生到Spark的出现,以及近年Tensorflow成为深度机器学习界的赢家,大数据经历着日新月异的成长。是什么驱动了这些革新?可以从大数据自身的4V特征(数据量、种类、速度、价值)分析。
数据量驱动
传统数据库采用集中式的存储和单机计算,面临海量数据时,其高昂的成本以及令人失望的扩展性,迫使企业寻求性价比更高的架构选型。在数据增长的驱动下,出于对大数据系统可用性、扩展性以及计算能力的考虑,分布式存储开始代替集中式存储,单机计算向分布式计算发展。在这个过程中可以看到SQL on Hadoop各类产品快速成长,关系型数据库在海量数据的应用场景中被Big Data数据库逐渐取代,传统MPP分析型数据库慢慢走向衰落。
种类驱动
应用的多样性产生了文本、图片、视频等多种数据类型,占据生产与生活的大量比重。在处理多种类型数据需求的驱动下,催生出可存储与分析非结构化数据的NoSQL数据库,而且以Tensorflow为代表的深度机器学习技术在处理文本、图片时得到普遍应用。与此同时,随着存储类型的丰富,未来大数据平台将对NoSQL、HDFS等多种存储提供支持,届时将会发展出统一存储服务使不同的存储框架的差异性对于用户而言透明化。
速度驱动
随着近年来物联网被广泛部署,这种以实时结果为导向的系统加强了对实时计算的需求,推动数据的处理模式从离线走向实时。在速度需求的驱动下,涌现出一批如Flink、Apex、SQLstream、Transwarp Slipstream等先进技术,它们融合了批处理和流处理,提供强大易用的低延时实时计算能力,今后将逐渐取代原有的流处理技术。
价值驱动
大数据技术的真正意义在于从数据中提炼价值,为了在高度和广度上提升价值,大数据技术向两个特点发展:一是从历史统计向预测性分析发展,走在时间的前列在未知的未来赢得决策优势;二是向着更高的易用性发展,降低数据挖掘等各种产品的使用门槛,使任何业务人员都能够自助的分析建模。
随着大数据的发展,新技术不断诞生并成熟,同时过时的不能满足市场需求的技术被慢慢取代。通过对2017年国内外大数据相关文章和产品的总结,我们发现大数据技术的热点聚焦在以下三方面:SQL回归大数据、云上大数据、大数据与人工智能。
SQL回归大数据
大数据技术将处理方式分布式化,使大数据的处理在扩展性、延迟性、成本取得进步,但是却牺牲了传统SQL数据库例如事务、SQL语句、关系模型、安全管控等关键特性。这些特性对于传统行业的重要性超过了大数据技术带来的好处,它们的缺失导致了例如NoSQL数据库等技术没有获得期望般的广泛部署。于是,近年来越来越多的大数据产品开始重视传统SQL特性,提供接近SQL数据库的使用体验,例如Google推出支持SQL的云数据分析引擎BigQuery,星环的分析型数据库Inceptor,阿里的100T级别的关系型数据库POLARDB,Amazon的支持标准SQL的流处理引擎Kinesis等。
其中,Google BigQuery是国外在用户体验表现比较优秀的数据处理产品,它采用基于云的解决方案,底层使用大规模分析系统Google Dremel作为支撑,提供SQL-Like的查询接口,对于PB级数据实现秒级的查询速度。
图1 Google BigQuery(Dremel)树形架构
(图片来源: https://cloud.google.com/files/BigQueryTechnicalWP.pdf)
对应的,Transwarp Inceptor作为国内具有代表性的PB级大规模分析型数据库,具备几乎完整的SQL数据库特性,同时对传统老牌数据库(e.g. Oracle)提供方言支持,能实现传统数据库到大数据的流畅衔接,并且为服务上云做好了准备。
图2 Transwarp Inceptor产品架构
SQL的回归意味大数据产品的发展已经超出了解决大数据本身的问题,同时在设计产品功能时会更贴近实际生产对使用上的需求。
云上大数据
大数据普及之前,云主要以传统的存储与计算方式提供服务,但是这些应用较为拘泥,创造的价值受限。大数据与人工智能普及后,云平台开始作为大数据计算资源的底层提供服务。云服务的一些特性对于大数据的广泛落地具有重要意义,例如可以提供资源按需使用,可以自动恢复,支持广泛接入,实现多租户和资源管理,实现弹性伸缩,以及精确计量资源使用。这些特征使云服务能够以IaaS、Paas或者Saas的形式交付,帮助大数据带来产品本身以及应用上的无限创新。
目前,云厂商和大数据厂商同时都在追赶云上大数据的趋势,形成了大数据上云和云上大数据的两种发展模式。
一种是以Amazon为代表的云厂商,以其成熟的云服务为基础,快速构建并丰富大数据产品线。
图3 Amazon的大数据产品方案
另一种是以星环为代表的大数据厂商,通过对其大数据服务进行容器化,从而将产品从物理设备推向云。目前星环正在研发大数据云平台Transwarp Data Cloud,将于2018年面世。
图4 星环大数据云平台产品架构
这两类厂商分别在纵向的两个方向,借助自身擅长方面,同时向另一面进行开发,引领大数据与云的结合。
大数据与人工智能
AI早在20世纪50年代就已经诞生,2006年之后开始真正广泛实用化,2017年更是取得瞩目的成就。人工智能逐渐回归焦点位置,主要原因可以归结为四点:数据、算法、计算力、平台。第一,人工智能创造价值以大量的数据挖掘和训练为前提,近年来互联网和大数据的蓬勃发展恰好提供了大量的“生产资料”;第二,作为生产力的算法得到了优化,例如1997年深蓝战胜卡斯帕罗夫时采用以专家规则为主的算法,每秒需评估6亿个位置,而AlphaGo在2016年战胜李世石时,不再以暴力搜索取胜而是以深度学习为主,每秒仅需评估6万个位置,计算量减少了1万倍;第三,摩尔定律降低了计算成本,基于GPU/FPGA的加速技术逐渐普及,提升了AI的调参效率,加快开发迭代;第四,越来越多的AI开发平台开始提供易用的半自动化开发工具,方便数据与算法的结合以提高效率,例如Transwarp Sophon对于机器学习开发支持从数据集成开始经过预处理、特征工程、模型训练到最终模型应用的完整流程。
但从长远看,人工目前依然处于起步阶段,面临很多挑战。首先,由于人工智能模型训练依赖大量人工标注样本,造成的现实是在它取代人力之前必须先投入大量人力;其次,由于每种模型受限于特定场景,所以每当场景更换都需要重新进行模型训练;同时,模型训练速度虽然有提升但依然很慢,且需要大量计算资源;最后,人工智能目前还停留在被动识别和预测阶段,面对未学习过的问题则无计可施。人工智能若实现飞跃,必须在上述问题中寻求突破。
从应用上的需求考虑,我们预测大数据+人工智能的未来会向五个方向发展:更高效的机器学习工具、更广泛的行业模型、更进步的基础算法、更精确的自动模型选择、以及云上的人工智能服务aiPaaS。
综上,大数据技术受4V特征驱动,在多重技术的武装下前进,同时我们认为它的近期发展热点将围绕三个方面:全面支持SQL以推动在传统行业的落地;依靠云服务推动产品的部署与普及;支撑人工智能创造实用价值。
大数据的价值不只是在于它的规模,更重要的是应用它挖掘出信息的价值。中国处于快速发展时期,未来将成为大数据商业的主要战场,掌握数据价值的企业才能把握住核心竞争力。可以预见,大数据今后将重新定义信息技术,推动IT时代走向DT时代,各企业需要在激烈的竞争中把握大数据发展趋势,赢得发展先机。
往期原创文章
Transwarp Data Hub 5.1–大数据平台的新升级
大数据开放实验室由星环信息科技(上海)有限公司运营,专门致力于大数据技术的研究和传播。若转载请在文章开头明显注明“文章来源于微信订阅号——大数据开放实验室”,并保留作者和账号介绍。